在大多數語言中,字元會比單字還要少,所以運行中佔用的記憶體數量不會這麼多。使用單字來編碼就需要相對多的標籤,實際應用中還可能出現詞彙庫中沒有這個單字等等的問題出現,但用單字的好處是單字本身傳達的意義要比字元還大,所以承載的訊息量也較多,若要綜合出兩種編碼的優點,我們可以使用一個叫做詞嵌入法的編碼方式。
One-hot編碼再把類別資料轉換成張量的時候相當方便,但如果是在沒有上限或是詞彙量相當大的時候此種方式就會不適用,所以我們可以試著將向量壓縮成更方便我們使用的大小,將單字轉換成浮點數向量可以使用embedding(嵌入法)。
雖然在儲存的時候我們可以隨機生成一個浮點數向量,但其實更理想的方式是我們將有關聯的詞彙並且經常一起使用的詞彙放在相近的向量空間區域,像是物品與其的顏色:綠色的大樹,將綠色和大樹投影在向量空間中的相近區域。
實際建立詞嵌入法時,我們可以設定橫軸為名詞,縱軸為形容詞,這樣就可以歸類所有能使用相同形容詞的名詞,如此一來,只要接收到形容詞就能找到相似的名詞。